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Verfahren und System zum Erfassen von Daten aus maschinell 
lesbaren Dokumenten 



5 Die Erfindung betrifft ein Verfahren und ein System zum Er- 
fassen von Daten aus maschinell lesbaren Dokumenten, wobei 
die Daten einer Datenbank zugeordnet werden, in dem einzelne 
Daten raSglichst automatisch dem Dpkument extrahiert werden 
und in entsprechende Datenbankf elder eingetragen werden, wo- 
10 bei das erf indungsgemSlie Verfahren und System das Erfassen 
von Daten betrifft, falls Daten fiir ein Oder mehrere bestimm- 
te Datenbankf elder eines Dokumentes nicht mit der notwendigen 
Zuveriassigkeit extrahiert werden konnten. 

15 Verfahren und Systeme zum Erfassen von Daten aus maschinell 
lesbaren Dokumenten sind bekannt, Oblicherweise weisen die 
Systeme einen Scanner auf , mit welchem Vorlagen optisch abge- 
tastet werden. Die hierbei erzeugten Dateien sind maschinell 
lesbare Dokumente und enthalten in der Regel Textelemente. 

20 Die Textelemente werden mit Hilfe einer OCR-Einrichtung in 
codierten Text umgesetzt. Den Dateien werden in der Regel 
vorbestimmte Formulare bzw. Templates zugeordnet, so dass an- 
hand der Formulare gezielt bestimmte Inf ormationen aus den 
Text enthaltenden Dateien ermittelt werden konnen. biese In- 

25 formationen werden zum Beispiel in einer Datenbank abgespei- 
chert . 
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Derartige Verfahren und Systeme werden beispielsweise bei 
groBen Firmen eingesetzt, um Rechnungen zu lesen. Die so ext- 
30 rahierten Daten k5nnen automatisch einer betriebswirtschaf t- 
lichen Software tlbermittelt werden. 



Ein solches System ist in der US 4,933,979 beschrieben. Die- 
ses System weist einen Scanner zum optischen Abtasten von 
35 Formularen auf. Bei diesem System kOnnen eine Vielzahl von 
Formulartypen definiert werden, wobei jeder Formulartyp bzw. 
Template durch mehrere Parameter, insbesondere geometrisch 



i 



wo 2005/0434« PCT^P2004/009539_ 

- 2 - 



definierte Bereiche, in welchen Texte Oder Bilder enthalten 
sein sollerir festgelegt ist. Die Formulartypen k5nnen auch 
durch weitere Eigenschaf ten, wie ziim Beispiel der Schrift, 
die in den Texten enthalten ist {Alphabet, Zahlen, Symbole, 
5 Katakana, Kanji, Handschrift) definiert sein. Nach dem Scan- 
nen eines . Formulars wird mittels einer Formulartypunterschei- 
dungseinrichtung dem gescannten Formular ein Template zuge- 
ordnet. Dementsprechend werden die in dem Textfeld enthalte- 
nen Daten mittels einer OCR-Einrichtung gelesen und extra- 
10 hiert. Falls kein geeignetes Template vorhanden ist, muss ei- 
nes erstellt werden. 

Aus der WO 98/47098 geht ein weit^res System zum automati- 
schen Erfassen von Daten aus maschinell lesbaren Dokumenten 

15 hervor. Hierbei werden mittels eines Scanners Formulare op- 
tisch abgetastet. Danach wird automatisch eine Linien-Karte 
* des Fbrmulars erstel-lt. Hierbei werden zum einen alle Linien 
erfasst als auch grafische Elemente in eine Linienstruktur 
umgesetzt. Andere Elemente, wie zum Beispiel Textabschnitte, 

20 werden ausgef iltert . Alle vertikalen Linien bilden die Grund- 
lage zur Erstellung eines vertikalen SchlUssels und alle ho- 
rizontalen ' Linien bilden die Grundlage zur Erstellung eines 
horizontalen Schliissels. Danach wird ermittelt, ob bereits 
ein Template mit einem korrespondierenden vertikalen und ho- 

25 , rizontalen SchlQssel vorhanden ist. Falls dies der Fall ist, 
werden die Daten mit einem entsprechenden Template ausgele- 
sen. Ist dies nicht der Fall, so wird anhand des eingescann- 
ten Formulars mittels eines Selbstlern-Modus ein Template er- 
stellt und abgespeichert. 

30 

In dem Buch Modern Information Retrieval von Baeza-Yates und 
Ribeiro-Neto, Eddison-Wessley Verlag, ISBN 0-201-39829-X sind 
die Grundlagen von Datenbanken und zum schnellen Wiederauf- 
finden von in Datenbanken gespeicherten Inf ormationen erlau- 
35 tert. So ist im Kapitel 8.2 ein Verfahren mit invertierten 
Dateien, das aiich als invertierter Index bezeichnet wird, be- 
schrieben. Bei diesem Verfahren wird aus einem zu untersu- 
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chenden Text zunachst ein W5rterbuch mit alien im Text ent- 
haltenen Wartern erstellt. Allen Wortern des Worterbuches 
werden eine oder mehrere Zahlen zugeordnet, die angeben, an 
welcher Stelle das Wort im Text auftritt. Derartige inver- 
tierte Dateien erlauben eine schnellere automatische Analyse 
eines zu durchsuchenden Textes. Im Kapitel 8.6.1 ist ein 
String Matching-Verf ahren beschrieben, mit welchem zwei 
Strings verglichen werden und ein zur Ahnlichkeit der Strings 
indirekt proportionales Kostenmali berechnet wird. Wenn die 
beiden Strings identisch sind, ist der Betrag des KostenmaBes 
Null. Je starker sich die Strings unterscheiden, desto grdlier 
ist der Betrag des KostenmaBes. Das Kostenmafl ist somit ein 
Ausdruck fUr die Ahnlichkeit der beiden Strings. Dieses und 
ahnliche Verfahren sind auch unter den Bezeichnungen Approxi- 
mate String Matching, Levenshtein-Verf ahren, Elastic Matching 
und Viterbi-Algorythmus bekannt. Diese . Verfahren geh5ren zu 
dem Gebiet der dynamischen Programmierung. • 

Aus der noch nicht ver5f f entlichten Patentanmeldung DE 103 42 
594.2 geht ein Verfahren und ein System zum Erfassen von Da- 
ten aus mehreren maschinell lesbaren Dokumenten hervor, bei 
dem aus einem zu bearbeitenden Dokument, dem Lesedokument, 
Daten extrahiert werden, indem sie an Positionen aus dem Le- 
sedokument ausgelesen werden, die durch in einem Vorlagedoku- 
ment eingetragene Felder bestimmt sind. 

Tritt ein Fehler beim Auslesen der Lesedokumente auf, wird 
das Lesedokument an einem Bildschirm dargestellt und ledig- 
lich durch Markieren entsprechender Felder im Lesedokument 
kannen die Daten ausgelesen werden. Hierbei werden, falls es 
erforderlich ist, automatisch weitere Vorlagedokumente anhand 
der markierten Lesedokumente erstellt bzw. vorhandene Vorla- 
gedokumente entsprechend korrigiert. Dieses System ist derart 
einfach bedienbar, so dass keine speziellen Computer- oder 
Softwarekenntnisse notwendig sind. 
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Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren und 
ein System zum Erfassen von Daten aus maschinell lesbaren Do- 
kximenten zu schaffen, bei dem die Eingabe der Daten gegenUber 
dem bekannten Verfahren erheblich vereinfacht wird, falls Da- 
5 ten nicht automatisch extrahiert werden konnten. 

Die Aufgabe wird durch ein Verfahren mit den Merkmalen des 
Anspruchs 1 und durch ein System mit dem Merkmal des An- 
spruchs 16 gelost, Vorteilhafte Ausgestaltungen der Erfindung 
10 sind in den jeweiligen Unteransprtichen angegeben. 

Mit den oben erlauterten Verfahren konnen Daten aus mehreren 
maschinell lesbaren Dokumenten erfasst werden, wobei die Da- 
ten einer Datenbank zugeordnet werden^ indem einzelne Daten 

15 mSglichst automatisch dem Dokument. extrahiert werden und in 
entsprechende Datenbankf elder eingetragen werden. Falls Daten 
far ein oder raehrere bestimmte Datenbankfelder einem Dokument 
nicht mit der notwendigen Zuverlassigkeit extrahiert werden 
konnten, zum Beispiel well ein Fehler festgestellt worden 

20 ist, der beispielsweise dadurch verursacht sein kann, dass in 
dem Dokument an der Stelle, wo die Daten gelesen werden soli- 
ten, keine Daten bder falsche Daten vorhanden sind, oder dass 
beim Einlesen dieses Dokumentes mittels eines OCR-Verf ahrens 
ein Oder mehrere Zeichen falsch umgesetzt werden, so werden 

25 erfindungsgemSfi folgende Schritte ausgefuhrt: 

- Darstellen des Dokumentes an einem Bildschirm, 

- Anzeigen des Datenbankf eldes, fiir das die Daten nicht mit 
der notwendigen Zuverlassigkeit extrahiert werden konnten, 

30 am Bildschirm 

- Ausfuhren einer Vorschlags-Routine, mit welcher Stringab- 
schnitte in der NShe eines von einem Benutzer auf dem 
Bildschirm bewegbaren Zeiger ausgewShlt, markiert und zur 
Extraktion vorgeschlagen werden. 

35 

Das Dokument wird am Bildschirm dargestellt, damit der Benut- 
zer es lesen kann. Zudem wird das Datenbankf eld angezeigt. 
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fiir das die Daten nicht mit der notwendigen Zuverlfissigkeit 
extrahiert werden konnten. Hierdurch wird der Benutzer in 
Kenntnis darUber gesetzt, fttr welches Datenbankfeld die Daten 
aus dem am Bildschirm dargestellten Dokument noch zu extra- 
hieren sind. 

Durch das AusfUhren bzw. Aktivieren der Vorschlags-Routine 
werden Stringabschnitte in der NShe eines von dem Benutzer 
auf dem Bildschirm bewegbaren Zeiger ausgewahlt, markiert und 
zur Extraktion vorgeschlagen, Hierdurch muss der Benutzer le- 
diglich den Zeiger auf dem am Bildschirm dargestellten Doku- 
ment in die N^he eines Stringabschnittes bewegen, der die Da- 
ten far das angezeigte Datenbankfeld -enthSlt. Die Daten wer- 
den dann automatisch ausgewahlt, markiert und zur Extraktion 
vorgeschlagen . Der Benutzer kann dann lediglich- durch BetSti- 
gen einer bestimmten Taste den vorgeschlagenen Stringab- 
schnitt in das Datenbankfeld- abernehmen. 

Durch das automatische Auswahlen und Markieren des Stringab- 
schnittes wird der Vorgang det. Obernahme der noch fehlenden 
Daten erheblich vereinfacht und beschleunigt , ■ 

Nach einer bevorzugten - AusfUhrungsform der Erfindung werden 
beim Auswahlen des Stringabschnittes Konzept-Inf ormationen 
berUcksichtigt, die dem jeweiligen Datenbankfeld zugeordnet 
sind. 

Die Erfindung wird nachfolgend beispielhaft anhand der Zeich- 
nung nSher erlautert. In der Zeichnung zeigen: 

Figur 1 ein Verfahren zum Erfassen von Daten aus einem Do- 
kument, die nicht automatisch extrahiert werden 
konnten^ 

Figur 2-6 jeweils Kopien von Bildschirmdarstellungen zu 
einzelnen Verfahrensschritten des in Figur 1 ge- 
zeigten Verfahrens, 
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Figur 7 ein Verfahren zum Extrahieren von in Tabellen ange- 
ordneten Daten, 

5 Figur 8, 9 jeweils eine Tabelle mit markierten Daten, und 

Figur 10 ein System zum Ausftihren des erf indungsgemSBen Ver- 
f ahrens . 

10 Das erfindungsgemaBe Verfahren zum Erfassen von Daten aus 
maschinell lesbaren Dokumenten ist eine Weiterbildung der 
eingangs erlSuterten Verfahren, mit welchen aus Dokumenten 
maschinell Daten extrahiert und in einer Datenbank gespei- 
chert werden k5nnen. 

15 • ... 

Bei diesen Verfahren konnen jedoch nicht immer alle Daten- 
bankfelder der Datenbank zuverlas^ig mit aus den Dokumenten 
extrahierten Daten gefullt werden. Liegt zum Beispiel beim 
Extrahieren der .Daten ein Fehler vor, so wird das automati- 

20 sche Verfahren unterbrochen und- unter Mitwirkung eines Benut- 
zers werden die Daten aus dem' Dokument manuell in Datenbank- 
f elder Ubertragen,- Ein solcher Fehler kann dadurch verursacht 
sein, dass in dem zu bearbeitenden Dokument kein geeigneter 
Stringabschnitt gefunden wird, aus dem die Daten gele«en wer- 

25 . den kGnnen oder der Stringabschnitt fehlerhafte Daten ent- 
halt, die beispielsweise beim Umsetzen in codierten Text des 
Dokumentes mittels eines OCR- Verf ahrens entstanden sind. 

Das erfindungsgemaBe Verfahren beginnt somit dann, wenn Da- 
30 ten nicht zuverlassig extrahiert werden konnen. Der Ausdruck 
„nicht zuverlassig extrahierbar'' umfasst sowohl grundsatzli- 
che Fehler beim Lesen von Daten, die ein Lesen der Daten 
nicht m5glich machen als auch gelesene Daten, die zum Bei- 
spiel unter Berttcksichtigung von Kontext-Informationen auf 
35 das Datenbankfeld abgebildet werden, wobei die GUte der Ab- 
bildung ermittelt wird. Derartige Abbildungsverf ahren sind 
zum Beispiel das eingangs erlSuterte String Matching- 
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Verfahren- 1st die hierbei erzielte Abbildungsgtite zu gering, 
so werden die automatisch eingelesenen Daten als nicht aus- 
reichend zuverlassig bewertet und verworfen. 

5 Nachfolgend wird das erfindungsgemSlJe Verfahren anhand des 
in Figur 1 dargestellten Flussdiagramms erlfiutert. In dem 
Flussdiagrairan sind alle Schritte, die automatisch ausgefiihrt 
werden, mit einem ,^a^^ im Kreis und alle vom Benutzer manuell 
zu tatigenden Schritte mit einem „m^' im Kreis gekennzeichnet • 

10 

Es beginnt mit dem Schritt SI, 

Nachdem zumindest Daten fiir ein Datenbankf eld nicht mit der 
notwendigen ZuverlSssigkeit extrahiert werden konnten, wird 

15 das entsprechende Dokument 1 an einem Bildschirm 2 darge- 
"stellt und das Datenbankf eld 3 angezeigt (Schritt S2) • Figur 
2 zeigt eine Bildschirmdarstellung unmittelbar nach dem Fest- 
stellen, dass Daten nicht mit der notwendigen Zuverlassigkeit 
extrahiert werden konnten, wobei in einem Fenster 4/1 auf der 

20 rechten Seite der Bildschirmdarstellung das Dokument 1 darge- 
' stellt ist. Auf der linken Seite sind zwei Fenster 4/2 und 
4/3 angeordnet. Das Fenster 4/2 enthSlt eine Obersicht der zu 
bearbeitenden Dokumente und im Fenster 4/3 sind die einzelnen 
Datenbankfelder angegeben, in welche Daten gespeichert wer- 

25 den, die aus dem Dokument 1 zu lesen sind. 

In dem dargestellten Beispiel konnte keines ,der Datenbank- 
felder mit Daten gefullt werden, weshalb die einzelnen Daten- 
bankfelder 3 mit dem Zusatz [empty] versehen sind. Es ist je- 
30 doch auch moglich, dass nur in wenigen Datenbankf eldern pder 
lediglich in einem einzigen Datenbankf eld Daten fehlen. 

In Figur 2 ist das Datenbankf eld „InvoiceNumber'' (= Rech- 
nungsnummer) im Vergleich zu den anderen Datenbankfeldern 3 
35 dunkler markiert, was dem Benutzer anzeigt, dass ftir dieses 
Datenbankf eld 3 Daten aus dem Dokument 1 zu extrahieren sind. 
Zusatzlich ist im oberen Bereich des Fensters 4/1 in grofier 
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Schrift der Begriff „InvoiceNuinber* aufgefuhrt, das dem Be- 
nutzer zusStzlich anzeigt, fiir welches Datenbankf eld Daten zu 
extrahieren sind. 

5 Der Benutzer kann nun im Fenster 4/1 einen Zeiger 5 positio- 
nieren, den er vorzugsweise derart anordnet, dass er sich 
m5glichst nahe an dem Stringabschnitt befindet, von dem der 
Benutzer annimmt, dass dessen Inhalt in dem entsprechenden 
Datenbankf eld abzuspeichern ist. In dem in Figur 2 gezeigten 
10 Beispiel sind Daten fiir das Datenbankf eld „Rechnungsnuramer^^ 
zu extrahieren, weshalb der Zeiger 5 in der Nahe der Rech- 
nungsnummer ,,4361'^^ positioniert wird (Schritt S3) . 

Der Zeiger 5 kann hierbei mittels einer Maus 6 oder durch 
15 Eingabe an einer Tastatur 7 im Fenster 4/1 bewegt werden. 

Nach dem -Positionieren ' des Zeigers 5 beginnt eine Vor- 
schlags-Routine, die mehrere Verf ahrensschritte umfasst. Die- 
se- Vorschlags-Routine kann einerseits dadurch au,sgel6st wer- 
20 den, dass der Zeiger 5 ein- vorbestimmtes Zeitintervall nicht 
bewegt wird^ wodureh dann die Vorschlags-Routine automatisch 
ausgefUhrt wird, oder dadurch; dass eine bestimmte Taste ei- 
ner Maus Oder der Tastatur bestatigt wird. 

25 Im Schritt 34 wird zun^chst geprUft, ob in der n^heren Omge- 
bung des Zeigers ein Stringabschnitt mit einem fUr das Daten- 
bankf eld 3 geeigneten Konzept vorhanden ist^ sofern dem ent- 
sprechenden Typ des Datenbankfeldes vorab Konzeptinf ormatio- 
nen zugeordnet wurden. Diese Konzeptinf ormationen umfassen 

30 die Syntax und/oder die Semantik des Datenbankfeldes. Inf or- 
mationen zur Syntax sind zum Beispiel die Anzahl von Ziffern 
und/oder Buchstaben und/oder vorbestimmte Formate des zu le- 
senden Stringabschnittes . So weisen Datumsf elder, Betragsf el- 
der und Adressf elder in der Regel bestimmte Formate auf . In- 

35 f ormationen zur Semantik umfassen vorbestimmte Begriff e, die 
in das entsprechende Datenbankf eld eingefUgt werden kdnnen* 
Dies ist zum Beispiel bei Wclhrungsangaben zweckmSfiig, oder 
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wenn die Artikelbezeichnung eines bestimmten Lieferanten ein- 
gelesen werden solleri/ der eine begrenzte Anzahl von Artikeln 
lief em kann. Die entsprechenden Artikelbezeichnungen sind 
dann in einem Lexikon abgelegt und kbnrien dann eindeutig er- 
5 kannt werden. 



Bei dem in Figur 2 dargestellten Ausf uhrungsbeispiel befin- 
den sich in der Nahe des Zeigers 5 die zwei Stringabschnitte 
/,4361'' und ,,02 . 08 • 2002'\ Der letzte Stringabschnitt besitzt 

10 die Syntax eines Datums, weshalb er zum Extrahieren der Rech- 
nungsnuiraner verworfen wird. Der Stringabschnitt ,,4361^' ent- 
spricht der Syntax einer Rechnungsnummer . Somit wird im 
Schritt S4 entschieden, dass ein Stringabschnitt. mit einem 
geeigneten Konzept vorliegt, weshalb der Verfahrensablauf auf 

15 den Schritt S5 tibergeht. Im Schritt S5 wird der Stringab- . 
schnitt ,,4361^^ markiert ■ (Figur 3) -. Die Markierung ■ erf olgt im 
vorliegenden Ausfiihrungsbeispiel durch eine. farbliche Unter- 
legung des Stringabschnittes und durch Zeichnen eines Rahmens 
8. 

20 

Sollte im Schritt S4 kein geeignetes Konzept .ermittelt wer- 
den, so geht der Verfahrensablauf ■* auf den Schritt S6 uber. Im 
Schritt S6 wird das zum Zeiger 5 nachstliegend angeordnete 
Einzelzeichen ermittelt, das im vorliegenden Ausfuhrungsbei- 

25 spiel gemSJi Fig. 2-4 die „1^^ ist. Danach werden die Grenzen 
des dieses Zeichen enthaltenden Stringabschnittes nach allge- 
meinen Regeln ermittelt. Diese Grenzen k5nnen zum Beispiel 
durch Leer zeichen bzw. Leerr^ume im Dokument 1 oder durch be- 
stiramte Satzzeichen oder sonstige Markierungen im Dokument 1 

30 vorgegeben sein. Werden entsprechende Begrenzungsmarkierungen 
erkannt, so wird der dazwischen liegende Stringabschnitt aus- 
gewShlt und markiert. Bei dem in Figur 2 und 3 gezeigten Aus- 
fuhrungsbeispiel befinden sich seitlich des Stringabschnittes 
,,4361'' jeweils Leerraume, durch die auch nach den allgemeinen 

35 Regeln eine eindeutige Auswahl der Markierung des Stringab- 
schnittes mbglich ist. 
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UnabhcLngig davon, ob der Stringabschnitt gemaU dem Schritt 
S5 Oder gemSB dem Schritt S6 ausgewahlt oder markiert worden 
ist, geht der Verf ahrensablauf auf den Verf ahrensschritt S7 
uber, mit der der Stringabschnitt in einem zuscitzlichen Rah- 
5 men 9 als codierter Text und in einem weiteren Rahmen 10 ver- 
graiiert dargestellt wird (Fig. 3, 4). Bei dem vorliegenden 
Ausfilhrungsbeispiel liegt das Dokument 1 als grafische Datei, 
2um Beispiel im pdf, tif, gif, jpg-Format vor. Oblicherweise 
wird in dem bereits vorausgegangenen Verf ahrensabschnitt das 

10 Dokument einer OCR-Routine unterzogen und in codierten Text 
umgesetzt. Der codierte Text ist hierbei auch auf Konzepte 
untersucht worden und die entsprechenden Informationen sind 
abgespeichert worden. Diesem codierten Text wird der zu dem 
Stringabschnitt korrespondierende Abschnitt entnommen und in 

15 dem Rahmen 9 dargestellt. Hierdurch erkennt der Benutzer^ ob 
der Stringabschnitt korrekt in codierten Text -umgesetzt wor- 
den ist. ' • 

Im Rahmen 10 wird der Stringabschnitt im Grafikformat in 
20 vergrolierter Darstellung dargestellt, wodurch der Benutzer 
auch Details im Stringabschnitt erkennen kann. 

Mit dem Schritt S7 ist die Vorschlags-Routine abgeschlossen. 

25 Im Schritt S8 beurteilt der Benutzer, ob der ausgewahlte und 
markierte Stringabschnitt grundscLtzlich zur Obernahme in das 
Datenbankfeld geeignet ist. Ist dies nicht der Fall, so wird 
der Zeiger 5 erneut positioniert (S3) und die Vorschlags- 
Routine {S4 - S7) wiederholt ausgefUhrt. Ist die Auswahl des 

30 Stringabschnitts hingegen grundsatzlich geeignet, so beur- 
teilt der Benutzer, ob auch der markierte Bereich korrekt ist 
(Schritt S9) . Ist dies nicht der Fall, so kann der Benutzer 
die Markierung des Stringabschnittes manuell bearbeiten 
und/oder den codierten- Text im Rahmen 9 editieren (Schritt 

35 SIO) . Mit dem Editieren des codierten Textes kOnnen Fehler, 
die durch eine nicht korrekte OCR-Umsetzung entstanden sind, 
behoben werden. Bei diesen Korrekturen (Bereich anpassen, E- 
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ditieren) werden automatisch der markierte Bereich und die 
Inhalte der Rahmen 9 und 10 angepasst. 

1st der markierte Bereich korrekt bzw. vom Benutzer entspre- 
5 chend Qberarbeitet worden, so geht der Verf ahrensablauf auf 
den Schritt Sll tiber, mit dem die in dem ausgew^hlten String- 
abschnitt enthaltenen Daten in das korrespondierende Daten- 
bankfeld tibertragen werden (Figur 4), Diese Obertragung der 
Daten wird durch eine Betatigung einer vorbestimmten Taste an 

10 der Maus oder der Tastatur vom Benutzer ausgelGst. Danach ist 
das Verfahren zum Extrahieren von Daten fUr ein Datenbankf eld 
beendet (S12) • Sind Daten ftir weitere Datenbankf elder zu le- 
sen, so beginnt das Verfahren erneut mit dem Schritt SI. In 
Figur 5 ist das nSchste zu lesende Datenbankfeld ,/Invoice 

15 Date'^ {= Rechnungsdatum) angezeigt. • - 

Mit dem erfindungsgemSlJen Verfahren wird die Tatigkeit eines 
Benutzers beim manuellen Obertragen von Daten aus einem Doku- 
ment in ein Datenbankfeld lediglich auf das Positionieren des 

20 Zeigers, der Kontrolle der automatisch vorgeschlagenen Aus- 
wahl und der eventuellen Korrektur des Bereiches und das Be- 
tatigen einer Taste zum Obertragen der Daten beschrSnkt. Die 
Auswahl und die Markierung des Bereichs des auszuwahlenden 
Stringabschnittes wird vom erf indungsgemciiJen verfahren 

25 selbsttatig ausgefUhrt, 

Die Figuren 2 bis 5 zeigen die Obernahme von Daten in ein 
einzelnes Datenbankfeld, Durch die BerUcksichtigung von Kon- 
zept-Informationen. ist es jedoch auch mOglich, mit einem ein- 

30 zigen Stringabschnitt Daten fOr mehrere Datenbankf elder^ zu 
extrahieren. Figur 6 zeigt ein entsprechendes Ausf Uhrungsbei- 
spiel, in dem die vollstSndige Adresse als ein Stringab- 
schnitt markiert und gelesen wird, wobei die Adresse selbst- 
tatig in die einzelnen Datenbankf elder , Name, Firma, StralJe, 

35 Postleitzahl und Stadt segmentiert wird. 
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Nachfolgend wird eine weitere Ausgestaltung des oben be- 
schriebenen Verfahrens anhand des Flussdiagrainins aus Figur 7 
und der Bildschirmdarstellungen gemSfi Figur 8 und 9 erlciu- 
tert, mit dem Daten aus Tabellen extrahiert werden kSnnen. 

5 

Dieses Verfahren beginnt mit dem Schritt S15. 

Im Schritt S16 werden die Werte der Tabelle in der ersten 
Tabellenzeile gemaii obigen Verfahren durch Positionieren des 

10 Zeigers, automatisches AuswShlen und Markieren des Stringab- 
schnittes und Obernehmen der Daten in korrespondierende Da- 
tenbankf elder extrahiert • Figur 8 zeigt eine Tabelle, in der 
die Stringabschnitte der ersten Tabellenzeile markiert sind, 
die in die entsprechenden Datenbankfelder Ubernommen worden 

15 sind. Diese Datenbankfelder besitzen die-Struktuf einer Ta- 
belle, zum Beispiel sind sie als zwei-dimensionales Datenfeld 
angelegt, so dass beim Extrahieren der Daten in diese. Daten- 
bankfelder das, Verfahren anhand des Datenbankf eldes selbstta- 
tig erkennt^ dass Daten aus einer Tabelle ausgelesen werden, 

20 ' • 

Eine Tabellenzeile kann sich auch iiber mehrere Seiten 
erstrecken, wenh die Tabelle sich .entsprechend uber mehrere 
Seiten erstreckt. Sind die Daten der ersten. Tabellenzeile 
vollstandig extrahiert worden, kann der Benutzer dufch eine 
25 vorbestiramte Eingabe das automatische Extrahieren der weite- 
ren TabelleneintrSge initiieren. Wird diese Eingabe vom Be- 
nutzer getatigt, so werden im Schritt S17 zunachst eine Liste 
mit alien Stringabschnitten erstellt, die unterhalb der ers- 
ten Tabellenzeile angeordnet sind. 

30 

In Schritt S18 wird mittels einer Kostenf unktion ein Kosten- 
wert zwischen Sequenzen von Stringabschnitten der Liste und 
der Sequenz der Stringabschnitte der ersten Tabellenzeile, 
auf deren Grundlage Daten in die Datenbankfelder im Schritt 
35 S16 extrahiert worden sind, ermittelt, Bei dieser Kostenf unk- 
tion werden den Sequenzen der Stringabschnitte der Liste ge- 
ringe Kosten zugewiesen, deren Stringabschnitte bezuglich ih- 
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rer horizontalen Position und ihrer Breite mit den korrespon- 
dierenden Stringabschnitten der ersten Tabellenzeile Uberein- 
stinunen oder zumindest sehr ahnlich sind. Dieser Kostenwert 
ist somit indirekt proportional zur Ahnlichkeit zwischen den 
5 in der Liste aufgefiihrten Sequenzen von Stringabschnitten und 
den in der ersten Tabellenzeile enthaltenen Sequenz von 
Stringabschnitten . 

Die hierbei verwendete Kostenfunktion entspricht der aus dem 
10 Kapitel 8.6.1 String Matching Allowing Errors in Modern In- 
formation Retrieval (ISBN 0-201-3982 9-X) beschriebenen Kos- 
tenfunktion, mit welcher jeweils ein Einzelkostenwert zwi- 
schen einem Stringabschnitt der ersten Tabellenzeile und ei- 
nem Stringabschnitt der weiteren Tabellenzeilen ermittelt 
15 wird. Da jede Sequenz mehrere Stringabschnitte limfasst, wird 
mittels des Viterbi-Algorithmus ftir die einzelnen Sequenzen 
von Stringabschnitten jeweils ein Gesamtkostenwert bzw. Ge- 
samtahnlichkeitswert durch Summieren der Einzelkostenwerte 
berechnet . 

20 

Anhand dieser Kostenwerte bzw. Ahnlichkeitswerte warden die 
Sequenzen von Stringabschnitten als Tabellenzeilen bestinunt, 
deren Ahnlichkeitswert unter einem vorbestimmten Schwellwert 
liegt (S19) . Hierdurch sind alle Tabellenzeilen und 'damit Ta- 
25 belleneintrSge der Tabelle bestimmt. Sie werden im Schritt 
S20 markiert (Figur 9) und im Schritt S21 extrahiert, d.h., 
automatisch ausgelesen, gegebenenfalls in codierten Text urn- 
gesetzt, und in den entsprechenden Datenbankfeldern gespei- 
chert. 

30 

Mit dem Schritt S22 ist dieses Verfahren beendet. 

ZweckmclBigerweise ist es mdglich, die TabelleneintrSige nach- 
zubearbeiten, d.h., die markierten Bereiche zu verandern 
35 (verschieben, vergroiiern, verkleinern) bzw. einzelne Zeilen 
zu entfernen bzw. hinzuzufugen. Bei einer Nachbearbeitung 
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werden die Eintrcige in den Datenbankfeldern automatisch ent- 
sprechend angepasst. 

Zusatzlich kann beim Auslesen der Daten und Eintragen in die 
5 Datenbankfelder eine zusatzliche Kontrolle durch eine Abbil- 
dung mittels dem String Matching-Verfahren erfolgen, mit wel- 
Cher bestimmt wird, wie gut die Eintr^ge mit dem durch die 
einzelnen Datenbankfelder vorgegebenen Konzept iibereinstim- 
men. 

10 

Weiterhin kann das erfindungsgemaJJe Verfahren mit dem in der 
deutschen Patentanmeldung DB 103 42 594.2 beschriebenen Ver- 
fahren zum Erf assen von Daten aus mehreren maschinell lesba- 
ren Dokumenten kombi Alert werden, weshalb auf die Patentan- 
15 meldung vollinhaltlich Bezug genoramen wird und -sie durch Be- 
zugnahme in die vorliegende Patentanmeldung inkorporiert 
wird. 

Bei diesem Verfahren zum automatischen Erfassen von Daten 
20 aus mehreren maschinell lesbaren Dokumenten werden Vorlagedo- 
kumente mit einem Lesedokument verglichen und deren Ahnlich-- 
keit bewertet. Das hierbei angewandte Verfahren kann auch zum 
Auslesen einer Tabelle angewendet werden, wobei die Sequenz 
der a'usgewahlten Stringabschnitte der ersten Tabellenzeile 
25 dem Vorlagedokument entsprechen und die Kombinationen von 
Stringabschnitten der weiteren Tabellenzeilen den Lesedoku- 
menten entsprechen. 

Bei dem oben beschriebenen erf indungsgemSlien Verfahren zum 
30 Extrahieren von Daten aus Tabellen muss ein Benutzer ledig- 
lich den Zeiger zu den Tabelleneintragen in der ersten Tabel- 
lenzeile bewegen und die Obernahme der dann automatisch aus- 
gewShlten und markierten Stringabschnitte als Daten fur das 
entsprechende Datenbankf eld bestatigen. Nachdem er dies far 
35 alle TabelleneintrSge der ersten Tabellenzeile ausgefUhrt 
hat, muss er lediglich durch eine Eingabe das vollstandige 
Auslesen der weiteren Tabelleneintrage initiieren. Das Ver- 
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fahren ermittelt dann selbststSndig die weiteren Tabellenein- 
trSge, markiert sie und extrahiert die Daten in die Daten- 
bank. 

5 Dies beschleunigt erheblich das Auslesen von Daten aus der 
Tabelle in eine Datenbank. Der Verf ahrensabschnitt S17 bis 
S21 stellt daher eine eigenstandige Erfindung dar, die jedoch 
bevorzugt in Kombination mit dem in Figur 1 dargestellten 
Verfahren, auf der sich der Schritt S16 bezieht, verwendet 
10 wird, 

Figur 10 zeigt schematisch ein System zum AusfUhren des er- 
findungs'geraaflen Verfahrens. Dieses System 11 weist einen Com- 
puter 12 mit einer Speichereinrichtung 13, mit einer zentra- 
15 len Prozessoreinrichtung (CPU) • 14 und eine Interface- 
Einrichtung IS auf. Am Computer 12 sind ein- Scanner 16, ein 
Bildschirm 2' und eine Eingabeeinrichtung 17 angeschlossen. 
Die Eingabeeinrichtung 17 umfasst eine Tastatur 7 und/oder 
eine Maus 6. 

20 

In der S'peichereinrichtung 13 ist ein Sof twareprodukt zum 
AusfUhren des erf indungsgemaJien Verfahrens . gespeichert, das 
an der CPU 14 ausgefUhrt wird. Mit dem Scanner 16 werden Do- 
kumente erfasst und in eine elektronische Datei umge'wandelt . 

25 Diese elektronischen Dateien werden vom Computer 12 eingele- 
sen und eventuell mlttels einer OCR-Routine und/oder eines 
Verfahrens zum Erkennen spezieller Syntax oder Semantik in 
der Datei vorverarbeitet . Danach werden die in den Dateien 
enthaltenen Dokumente entsprechen dem oben beschriebenen Ver- 

30 fahren mit dem System 11 bearbeitet. An der Eingabeeinrich- 
tung 17 konnen die entsprechenden Eingaben vorgenommen wer- 
den, wobei diese sich lediglich auf Bewegen des Zeigers 5 und 
ein paar wenige Tastatureingaben beschrSnken. Gegebenenf alls 
werden die markierten Felder mittels Tastatur oder Mauseinga- 

35 be verschoben oder durch VergrOBerung bzw. Verkleinerung an- 
gepasst oder der codierte Text editiert. 
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Die Erfindung ist oben anhand eines AusfUhrungsbeispiels er- 
ISutert worden. Im Rahmen der Erfindung sind hiervon Abwand- 
lungen m5glich. So kann zum Beispiel anstelle des Rahmens 8 
lediglich der Rahmen 10 vorgesehen werden, in dem der ausge- 
5 wahlte Stringabschnitt vergroBert dargestellt wird. Dieser 
Rahmen 10 stellt auch eine Markierung des Stringabschnittes 
dar . 

Bei dem oben eriauterten AusfUhrungsbeispiel werden die Do- 
10 kumente eingescannt und liegen dann in einem Graphikf ormat 
vor. Das erfindungsgemSfle Verfahren kann jedoch auch zum Le- 
sen von Inf ormationen aus Dokumenten angewandt werden, die 
bereits in codiertem Text vorliegen, wie zum Bespiel E-Mails. 
Bei einer solchen Anwendung ist es selbstverstandlich nicht 
15 notwendig, dass die Dckumente mittels einer OCR-Routine in 
codierten Text umgesetzt werden. 

Die Erfindung kann folgendermalJen kurz zusammengefasst wer~ 
den: 

20 

Die Erfindung betrifft ein Verfahren zum Erfassen von Daten 
aus maschinell lesbaren Dokumenten, wobei die Daten einer Da- 
tenbank zugeordnet werden. 

25 Mit der Erfindung werden Stringabschnitte, die sich in der 
NShe eines vom Benutzer bewegbaren Zeigers befinden, automa- 
tisch ausgewShlt, markiert und deren Inhalt zur Obernahme in 
eine Datenbank vorgeschlagen. 

30 Nach einer Weiterbildung des erf indungsgemaJien Verfahrens 
kann der Inhalt einer Tabelle vollautomatisch ausgelesen wer- 
den, wenn die Tabelleneintrage in einer ersten Tabellenzeile 
einmal gemSfi obigen Verfahren ausgelesen worden sind. 

35 Es wurden Ausf tihrungsbeispiele der Erfindung beschrieben. 
Dabei ist klar, dass der Fachmann jederzeit Abwandlungen nndi 
Weiterbildungen angeben kann, die das erfindungsgemSfle Kon- 
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zept benutzten. Weiterhin kann die Erfindung sowohl raittels 
elektronischen Komponenten (Hardware) als auch durch Compu- 
terprograiranelemente (Software Oder Softwaremodule) reallsiert 
werden. Die Erfindung wird dabei insbesondere aus einer Kom- 
bination von elektronischen Hardware-Elementen und Software- 
elementen realisiert. Dementsprechend erfaBt die Erfindung 
auch Computerprograiranprodukte wis z.B. elektronische Daten- 
trSger. (CD, DVD, Diskette, Bandlaufwerke) bzw. Komponenten, 
die aber Computernetzwerke (Internet) verbreitet werden 
und/oder auf Computern und insbesondere im Zwischenspeichern 
geladen, bereit gehalten und/oder zum T^lauf gebracht werden. 
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Bezugs zeichenli s te 

1 Dokument 

2 Bildschirm 

5 3 Datenbankfeld 

4 Fenster 

5 Zeiger 

6 Maus 

7 Tastatur 
10 8 Rahmen 

9 Rahmen 

10 Rahmen 

11 System 

12 Computer 

15 13 Speichereinrichtung- 

14 CPU 

15 Interface-Einrichtung 

16 Scanner 

17 Eingabeeinrichtung 
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Anspruche 



1. Verfahren zum Erfassen von Daten aus maschinell lesbaren 
Dokumenten, wobei die Daten einer Datenbank zugeordnet 
werden, indem einzelne Daten moglichst automatisch dem 
Dokument extrahiert werden und in entsprechende Daten- 
bankfelder eingetragen werden, und falls Daten fur ein 
Oder mehrere bestiinmte Datenbankf elder einem Dokument 
nicht mit der notwendigen Zuverlassigkeit extrahiert wer- 
den konnten, werden folgende Schritte ausgefuhrt: 

- Darstellen des Dokumentes an einem Bildschirm, 

- Anzeigen des Datenbankf eldes, flir das die Daten nicht 
mit der notwendigen Zuverlassigkeit extrahiert werden 
konnten, am Bildschirm, 

- Ausftihren einer Vorschlags-Routine, mit welcher String- 
abschnitte in der Nahe eines von einem Benutzer auf dem 
Bildschirm bewegbaren Zeiger ausgewahlt, markiert und 
zur Extraktion vorgeschlagen werden • 

2. Verfahren nach Anspruch 1, 
dadurch gekennzeichnet, 

dass der Stringabschnitt nach MaBgabe von dem Datenbank- 
feld zugeordneten Konzept-Informationen ausgewShlt, mar- 
kiert und zur Extraktion vorgeschlagen wird. 

3. Verfahren nach Anspruch 2, 
dadurch gekennzeichnet, 

dass die Konzept-Informationen die Syntax und/oder die 
Semantik des Datenbankf eldes beschreiben, so dass von der 
Vorschlags-Routine ein zu markierender Stringabschnitt 
entsprechend der Syntax bzw. der Semantik des jeweiligen 
Datenbankf eldes ausgewahlt • und markiert wird. 
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Verfahren nach Anspruch 3, 

dadurch gekennzeichnet, 

dass die Inf ormationen zur Syntax die Anzahl von Ziffern 

und/oder Buchstaben und/oder vorbestiinmte Formate des zu 

lesenden Stringabschnitts beschreiben. 

Verfahren nach Anspruch 3 oder 4, 

dadurch gekennzeichnet, 

dass die Inf ormationen zur Semantik vorbestiinmte Begrif- 

fe, bspw. mit einem Lexikon, beschreiben. 

Verfahren nach einem der Anspruche 1 bis 5, 
dadurch gekennzeichnet, 
dass ein Stringabschnitt ausgewfihlt wird^ der zwischen 
zwei Begrenzungszeichen angeordnet ist. 

Verfahren nach Anspruch 6,, 

dadurch gekennzeichnet, 

dass Begrenzungszeichen Leerzeichen und/oder Satzzeichen 

umfassen. 

Verfahren nach einem der Anspriiche 1 bis 1, 
dadurch gekennzeic hn e t, 
dass der Text von Dokumenten in grafischer Darstellung 
zunSchst mit einem OCR-Verf ahren in codierten Text umge- 
setzt wird und die Vorschlags-Routine zusatzlich z\m mar- 
kierten Stringabschnitt in grafischer Darstellung den co- 
dierten Text dieses Stringabschnittes darstellt, 

Verfahren nach einem der Anspriiche 1 bis 7, 
dadurch gekennzeichnet, 
dass zusStzlich zum markierten Stringabschnitt dieser 
Stringabschnitt nochmals in vergrdfierter Darstellung am 
Bildschirm angezeigt wird. 
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10. Verfahren nach einem der AnsprUche 1 bis 9, 
dadurch gekennzeichnet, 

dass die Vorschlags-Routine nach dem Markieren eines 
Stringabschnittes eine Funktion aktiviert, mit welcher 
5 durch Betatigen einer oder mehrerer vorbestimmter Tasten 

der Inhalt des markierten Stringabschnittes in die Daten-. 
bank abernommen wird. 

11. Verfahren nach einem der Anspruche 1 bis 10, 
dadurch gekennzeichnet, 
dass beim Ausftihren der Vorschlags-Routine nach dem Bewe- 
gen des Zeigeirs ein vorbestiirantes Zeitintervall abgewar- 
tet wird, innerhalb dessen der Zeiger nicht bewegt werden 
darf, bevor ein Stringabschnitt ausgewShlt wird. 

12. Verfahren zum Erfassen von Daten aus maschinell lesbaren 
Dokumenten, wobei die Daten einer Datenbank zugeordnet 
werden, insbesondere nach einem der Anspruche 1-11, 
dadurch gekennzeichnet, 
dass nach dem Einlesen von Daten aus einer ersten Tabel- 
lenzeile in korrespondierende Datenbankf elder automatisch 
die weiteren Tabelleneintrage durch einen Vergleich von 
unterhalb der letzten Tabellenzeile angeordneten String- 
abschnitten mit den Stringabschnitten der ersten Tabel- 
lenzeile, die den eingelesenen Daten entsprechen, ermit- 
telt werden and diese weiteren Tabelleneintrage automa- 
tisch extrahiert werden. 

13. Verfahren nach Anspruch 12, 

30 dadurch gekennzeichnet, 

dass der Vergleich zwischen den Stringabschnitten mittels 
eines String Matching-Verf ahrens erfolgt. 

14. Verfahren nach Anspruch 12 oder 13, 

35 dadurch gekennzeichnet, 

dass die ermittelten Tabelleneintrage markiert werden. 
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15. Verfahren nach Anspruch 14, 
dadurch gekennzeichnet, 

dass Funktionen zum Editieren der markierten Tabellenein- 
trage bereitgestellt werden. 

16. System ziam Erfassen von Daten aus maschinell lesbaren Do- 
kumenten uinfassend einen Computer (12) mit einer Spei- 
chereinrichtung (13) und eine CPU (14), wobei in der 
Speichereinrichtung (13) ein Sof twareprodukt zum Ausfiih- 
ren des Verfahrens nach einem der Ansprliche 1-15 ge- 
speichert ist. 

17. System nach Anspruch 16, 

dadurch geken-nzeichnet, 
dass das System eine Eingabeeinrichtung (17) in Form ei- 
ner Maus (6) und/oder Tastatur (7) aufweist. 

18. System nach Anspruch 16 oder 17, 
dadurch gekenn z e i c h n e t, 

dass das System einen Scanner (16) zum optischen Abtasten 
von Dokumenten aufweist. 

19. Computerprogrammprodukt, das bei seinem Laden und AusfUh- 
ren auf einem Computer (12) ein Verfahren nach einem der 
Anspriiche 1 bis 15 bewirkt. 
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